高斯-马尔可夫定理
在给定经典线性回归模型的假定下,最小二乘估计量在所有线性无偏估计量中具有最小方差(有效估计量),它们是最优线性无偏估计量(BLUE)。
注意比较的范围是线性无偏估计量。经典线性回归模型的假定有七个:
- 1 . 线性回归模型。对变量不一定是线性,对参数而言线性
- 2 . $X$是固定的或者独立于误差项。$cov(X_i,u_i)=0$
- 3 . 对于给定的$X$值,干扰项的$u_i$均值为0。这意味着模型不存在设定误差或者说设定偏误,并且$X_i$和$u_i$不相关。
- 4 . 同方差性。
- 5 . 干扰项之间无自相关。
- 6 . 观测次数大于待估计参数个数。
- 7 . $X$取值没有异常。有足够的变异,又不能有异常值。
OLS估计量的性质
高斯-马尔可夫定理是在一堆理论假设上得到的结论,而OLS估计量应用在样本数据上有一些天然的性质,他们是不需要通过假定就可以推导出来的:
- 1 样本回归线穿过$Y$和$X$的样本均值点
- 2 $\bar{\hat{Y}}=\bar{Y}$
- 3 残差$\hat{u_i}$均值为0
- 4 残差$\hat{u_i}$和$Y_i$的预测值不相关
判定系数$r^2$
这是一个拟合优度的度量,注意到离差平方和可以分解为:
定义$r^2$为:
从字面上讲,$r^2$测度了在$Y$的总变异种由回归模型解释的部分所占的比例或百分比。它仅仅是线性关联或者说线性相依的一个度量,不能描述非线性关系,因此即便$r^2$很小,两个变量也可能存在其它很强的复杂的非线性关系。
$u_i$的正态假定
前面的高斯-马尔可夫定理用到的假设中并没有包括干扰项的正态假定,就可以得到OLS估计量具有BLUE的性质。当引入$u_i$的正态假定后,我们可以对OLS估计量进行进一步的了解,可以推导出他们的概率分布,将会使得假设检验的工作变得容易进行。
假定可以简洁的叙述为:
注意到$u_i$的正态假定实际上满足了经典线性回归模型7条假定中最关键的干扰项均值为0、同方差、自相关,这就差不多可以说OLS是一个BLUE了。OLS估计量在$u_i$的正态假定下有如下性质:
- 无偏性
- 有效估计量
- 一致估计
- 估计系数$\beta$服从正态分布,所以我们可以对估计系数进行假设检验。
- $\frac{(n-2)\hat{\sigma }^2}{\sigma ^2}\sim \chi (n-2)$
- $(\hat{\beta _1},\hat{\beta_2})$的联合分布独立于$\hat{\sigma }^2$,即从样本数据计算的样本方差和和估计系数之间独立。
- 更重要的是,OLS估计量不单单在所有线性无偏估计量里具有最小方差,即便在非线性的无偏估计里面也具有最小方差。也就有更强的结论出现了,OLS是最优无偏估计量。
备注:除了OLS估计方法,还有极大似然估计(ML)。在正态假设下,两种估计方法对于$\beta$的估计都是相同的,然而对于$\sigma^2$的估计,两者是有差异的,ML的估计($\sum \hat{u_i}^2/n$)是有偏的,OLS的估计($\sum \hat{u_i}^2/(n-2)$)是无偏的,讲道理在这么完美的假设下,没有人可以打败OLS估计。